{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 78,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "import pandas as pd\n",
    "out=pd.read_table('csdn_blog_100.csv',sep='\\t',\n",
    "                engine='python',index_col=['_id'],header=None,names=['_id','标题','标签','时间','pv','作者','原创','c'])\n",
    "out['tfkey'] = ''\n",
    "out['trkey'] = ''\n",
    "out['nlp']=''"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 79,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "import jieba\n",
    "import jieba.analyse\n",
    "import jieba.posseg as pseg\n",
    "from bs4 import BeautifulSoup\n",
    "from gensim import corpora, models, similarities\n",
    "\n",
    "wordmodel = jieba.analyse\n",
    "# 加停用词库\n",
    "wordmodel.set_stop_words(stop_words_path='../words/CNstop_words_zh.txt')\n",
    "import codecs\n",
    "stopwords = codecs.open('../words/CNstop_words_zh.txt', 'r', encoding='utf8').readlines()\n",
    "stopwordlist = [w.strip() for w in stopwords]\n",
    "# 结巴分词后的停用词性 [标点符号、连词、助词、副词、介词、时语素、‘的’、数词、方位词、代词]\n",
    "stop_flag = ['x', 'c', 'u','d', 'p', 't', 'uj', 'm', 'f', 'r']"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 80,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "def genkeyword(doc,W=5,K=5):\n",
    "    \"\"\"\n",
    "    取关键词\n",
    "    :param doc:             文本内容\n",
    "    :param stop_flag:       停用词属性\n",
    "    :param W:               textrank窗口磊小\n",
    "    :param K:               topK取词\n",
    "    :return:                2个关键词列表， tfidf, textrank\n",
    "    \"\"\"\n",
    "    resulttfidf = []\n",
    "    resulttextrank = []\n",
    "    resulttfidf = []\n",
    "    resulttextrank = []\n",
    "    # tfidf\n",
    "    tfidfwords = wordmodel.extract_tags(doc, topK=K, withWeight=False,allowPOS=['ns','n','vn','v','nr','x'])\n",
    "\n",
    "    # textrank\n",
    "    wordmodel.TextRank().span = W\n",
    "    textrankwords = wordmodel.textrank(doc, topK=K, withWeight=False,allowPOS=['ns','n','vn','v','nr','x'])\n",
    "    return tfidfwords, textrankwords\n",
    "\n",
    "def tokenization(doc,sw):\n",
    "    \"\"\"\n",
    "    分词\n",
    "    :param doc:         文本内容\n",
    "    :param sw:          停用词列表\n",
    "    :return:            分词后的列表\n",
    "    \"\"\"\n",
    "    result = []\n",
    "    text = doc\n",
    "    words = pseg.cut(text)\n",
    "    for word, flag in words: \n",
    "        if flag not in stop_flag and word not in sw: \n",
    "            result.append(word)\n",
    "    return result\n",
    "\n",
    "ids=[]\n",
    "dockeys=[]\n",
    "# 100篇文档分词，保存\n",
    "for row in out.itertuples():\n",
    "    soup = BeautifulSoup(row.c,'html5lib').getText().strip()\n",
    "    ids.append(row.Index)\n",
    "    word_list = tokenization(soup,stopwordlist)\n",
    "    dockeys.append(word_list)\n",
    "    out.loc[out.index==row[0],['nlp']] = ' '.join([w for w in word_list])\n",
    "    tfwords,trwords = genkeyword(soup, W=5, K=8)\n",
    "    out.loc[out.index == row[0], ['tfkey']] = ' '.join([w for w in tfwords])\n",
    "    out.loc[out.index == row[0], ['trkey']] = ' '.join([w for w in trwords])\n",
    "\n",
    "# out.drop(out.columns[[6]], axis=1,inplace=True)\n",
    "# out.to_csv('csdn_blog_100_nlp_tr_tf_keyword.csv',sep='\\t')\n",
    "# try:\n",
    "# #     保存文档id列表\n",
    "#     import pickle\n",
    "#     f = open(\"./csdn_blog_ids_100.dat\", \"wb\")\n",
    "#     pickle.dump(ids, f)\n",
    "#     f.close()\n",
    "# except Exception as e:\n",
    "#     print('csdn_blog_ids_100.dat保存文件出错')\n",
    "    \n",
    "# try:\n",
    "# #     保存文档dockeys列表\n",
    "#     import pickle\n",
    "#     f = open(\"./csdn_blog_dockeys_100.dat\", \"wb\")\n",
    "#     pickle.dump(dockeys, f)\n",
    "#     f.close()\n",
    "# except Exception as e:\n",
    "#     print('csdn_blog_dockeys_100.dat保存文件出错')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 82,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>标题</th>\n",
       "      <th>标签</th>\n",
       "      <th>tfkey</th>\n",
       "      <th>trkey</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>_id</th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>321</th>\n",
       "      <td>WhatisthenextBIGthing?</td>\n",
       "      <td>internet  产品  apple  blackberry  nokia  服务器</td>\n",
       "      <td>产品 应用 技术 市场 设备 推出 领域 厂商</td>\n",
       "      <td>市场 产品 领域 技术 应用 没有 设备 计算</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>322</th>\n",
       "      <td>关于我在中华读书报发表的文章</td>\n",
       "      <td>读书  出版  教育  设计模式  语言  java</td>\n",
       "      <td>教材 书籍 教学 技术 课堂 学生 教科书 习题</td>\n",
       "      <td>教材 技术 书籍 教学 学生 方法 知识 市场</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>638</th>\n",
       "      <td>LaTeX常用功能</td>\n",
       "      <td>report</td>\n",
       "      <td>设置 页眉 字号 缩进 页脚 版心 包来 行距</td>\n",
       "      <td>设置 显示 缩进 页脚 包来 纸张 习惯 字号</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>823</th>\n",
       "      <td>成功项目的杀手：领导意志</td>\n",
       "      <td>工作  企业应用  算法  申诉  微软  浏览器</td>\n",
       "      <td>项目 软件 队伍 领导 油田 分数 系统 考核</td>\n",
       "      <td>项目 队伍 领导 软件 油田 系统 企业 公司</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1690</th>\n",
       "      <td>腾讯上市马化腾6年创业身家9亿</td>\n",
       "      <td>腾讯  创业  qq  互联网  网络  游戏</td>\n",
       "      <td>移动梦网 马化腾 服务 用户 业务 互联网 增值 网络广告</td>\n",
       "      <td>业务 服务 马化腾 互联网 用户 注册 收入 移动梦网</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1796</th>\n",
       "      <td>医院信息化发展调查研究报告（来自赛迪）</td>\n",
       "      <td>医疗  服务器  技术人  网络  产品  internet</td>\n",
       "      <td>医院 信息系统 服务器 信息化 建设 医疗 系统 选型</td>\n",
       "      <td>医院 信息系统 系统 建设 信息化 医疗 服务器 管理</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1823</th>\n",
       "      <td>华为的冬天(任正非）</td>\n",
       "      <td>华为  工作  生活  报表  数据库  制造</td>\n",
       "      <td>干部 改进 流程 批判 管理 变革 公司 效益</td>\n",
       "      <td>干部 公司 管理 不能 流程 批判 改进 没有</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1826</th>\n",
       "      <td>软件公司创业完全手册[一]</td>\n",
       "      <td>创业  工作  生活  融资  平台</td>\n",
       "      <td>创业 软件 发展 过程 达到 人生 分配 园区</td>\n",
       "      <td>软件 创业 发展 过程 速度 产业 分配 希望</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1834</th>\n",
       "      <td>J2ME (Java 2 Micro Edition) 简介</td>\n",
       "      <td>java  j2me  嵌入式  平台  j2se  linux</td>\n",
       "      <td>程序 类别 函式 平台 执行 审核 装置 预先</td>\n",
       "      <td>程序 平台 类别 执行 函式 审核 装置 预先</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1883</th>\n",
       "      <td>职业生涯规划的三个阶段</td>\n",
       "      <td>工作  审查  体育  招聘  活动</td>\n",
       "      <td>工作 职员 待遇 老板 了解 简历 能力 变动</td>\n",
       "      <td>工作 能力 可能 实际 没有 公司 变动 获得</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1996</th>\n",
       "      <td>GuruoftheWeek条款04:类的构造技巧</td>\n",
       "      <td>constructor  os  class  c++  reference  library</td>\n",
       "      <td>++ 函数 应该 成员 风格 说明 操作 ++_</td>\n",
       "      <td>应该 函数 风格 成员 操作 内容 说明 翻译</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1999</th>\n",
       "      <td>GuruoftheWeek条款07：编译期的依赖性</td>\n",
       "      <td>function  class  iostream  string  struct  dep...</td>\n",
       "      <td>头文件 去掉 函数 包含 需要 代码 程序 定义</td>\n",
       "      <td>头文件 需要 代码 使用 程序 函数 成员 类型</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2010</th>\n",
       "      <td>详解&lt;K's50PV&gt;(上篇)</td>\n",
       "      <td>c++  microsoft  游戏  语言  borland  pascal</td>\n",
       "      <td>编程 学习 详解 简称 观点</td>\n",
       "      <td>编程 观点 学习 简称</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2014</th>\n",
       "      <td>kingofark的第0个五评计划-kingofark自述与简介</td>\n",
       "      <td>汇编  c++  语言  工作  c</td>\n",
       "      <td>推荐 计划 初学者 团体 声明 简介 条款 计算机专业</td>\n",
       "      <td>推荐 团体 技术 条款 初学者 个人 喜爱 学院</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2165</th>\n",
       "      <td>ASP.NET：革命，不是革新</td>\n",
       "      <td>asp.net  web服务  button  textbox  asp  脚本编程语言</td>\n",
       "      <td>控件 页面 服务器端 生成 应用程序 文件 浏览器 创建</td>\n",
       "      <td>控件 页面 服务器端 生成 应用程序 文件 验证 创建</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2430</th>\n",
       "      <td>姗姗来迟的乐趣——书评《模式的乐趣》</td>\n",
       "      <td>设计模式  java  出版  uml  读书  工具</td>\n",
       "      <td>模式 读者 设计模式 入门 教材 小书 影印版 复审</td>\n",
       "      <td>模式 读者 设计模式 教材 作品 入门 没有 标题</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2600</th>\n",
       "      <td>JavaTM安全体系结构2</td>\n",
       "      <td>applet  java  jdk  程序开发  网络  sun</td>\n",
       "      <td>保护 许可 线程 应用程序 调用 系统 访问 方法</td>\n",
       "      <td>保护 系统 许可 访问 应用程序 线程 调用 请求</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2601</th>\n",
       "      <td>JavaTM安全体系结构3</td>\n",
       "      <td>url  applet  solaris  windows  java  扩展</td>\n",
       "      <td>许可 文件 策略 代码 密钥 属性 入口 指定</td>\n",
       "      <td>许可 文件 策略 代码 指定 属性 密钥 入口</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2603</th>\n",
       "      <td>JavaTM安全体系结构5</td>\n",
       "      <td>classloader  applet  java  jdk  虚拟机  语言</td>\n",
       "      <td>授权 子类 器类 实例 使用 原始 空值 创建</td>\n",
       "      <td>授权 使用 创建 可能 原始 提供 用户 运行</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2604</th>\n",
       "      <td>JavaTM安全体系结构6</td>\n",
       "      <td>工具  jdk  java  applet  solaris  windows</td>\n",
       "      <td>管理器 密钥 文件 工具 调用 命令行 用户 证书</td>\n",
       "      <td>工具 策略 使用 文件 管理器 证书 调用 用户</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2605</th>\n",
       "      <td>JavaTM安全体系结构7</td>\n",
       "      <td>algorithm  算法  object  java  存储  string</td>\n",
       "      <td>签字 对象 线程 访问控制 方法 供应者 算法 消费者</td>\n",
       "      <td>对象 签字 线程 访问控制 消费者 方法 资源 获得</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2606</th>\n",
       "      <td>JavaTM安全体系结构8</td>\n",
       "      <td>applet  jar  jdk  文档  java  加密</td>\n",
       "      <td>签字 子域 许可 代码 密钥 图象 保护 音频</td>\n",
       "      <td>许可 签字 使用 子域 保护 代码 概念 资源</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2872</th>\n",
       "      <td>编程修养（一）</td>\n",
       "      <td>编程  语言  加密  工作  产品  c</td>\n",
       "      <td>程序员 程序 修养 编程 函数 语句 素质 作品</td>\n",
       "      <td>程序员 程序 修养 函数 语句 进行 编程 没有</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2885</th>\n",
       "      <td>用GDB调试程序（七）</td>\n",
       "      <td>语言  pascal  fortran  unix  scheme  c++</td>\n",
       "      <td>调试 命令 程序 函数 语言 功能 调试程序 使用</td>\n",
       "      <td>命令 调试 程序 语言 函数 环境 执行 功能</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2886</th>\n",
       "      <td>跟我一起写Makefile（一）</td>\n",
       "      <td>makefile  编译器  object  command  file  unix</td>\n",
       "      <td>文件 编译 链接 命令 目标 编译器 执行 源文件</td>\n",
       "      <td>文件 编译 命令 目标 需要 链接 执行 工程</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2891</th>\n",
       "      <td>跟我一起写Makefile（六）</td>\n",
       "      <td>makefile  shell  yacc  unix  path  工作</td>\n",
       "      <td>命令 变量 目录 参数 执行 规则 出错 定义</td>\n",
       "      <td>命令 执行 变量 目录 规则 出错 定义 使用</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3000</th>\n",
       "      <td>Lotus Domino/Notes Toolkits综述(六) 其他</td>\n",
       "      <td>lotus  数据库  xml  c++  文档  windows</td>\n",
       "      <td>数据库 综述 数据 文档 版本 存取 表单 应用</td>\n",
       "      <td>数据 使用 数据库 设计 元素 存取 应用 开发</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3072</th>\n",
       "      <td>未来游戏发展趋向</td>\n",
       "      <td>游戏  制造</td>\n",
       "      <td>游戏 单人游戏 大展 运动 故事情节 站点 玩友 趣味性</td>\n",
       "      <td>游戏 单人游戏 运动 方面 发展 故事情节 制作 提高</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3087</th>\n",
       "      <td>用PHP实现文件上传</td>\n",
       "      <td>php  file  input  服务器  javascript  action</td>\n",
       "      <td>上传 文件 字段 表格 用户 文件名 服务器 提交</td>\n",
       "      <td>文件 上传 字段 用户 表格 服务器 使用 提交</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3288</th>\n",
       "      <td>&lt;&lt;AI入门(3)&gt;&gt;(C)</td>\n",
       "      <td>c  算法  search  扩展  工作</td>\n",
       "      <td>节点 表中 搜索 算法 估价 选择 新值 函数</td>\n",
       "      <td>节点 搜索 信息 表中 决定 选择 函数 有序</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8578</th>\n",
       "      <td>程序员，你的逻辑思维有多强（一道推理题测试，不可错过）</td>\n",
       "      <td>测试  random  算法  语言</td>\n",
       "      <td>小姐 衣服 方法 赵小姐 大家 答案 思考问题 橘子</td>\n",
       "      <td>小姐 衣服 大家 方法 希望 答案 能力 思考问题</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9270</th>\n",
       "      <td>用VC＋＋实现自绘按钮控制</td>\n",
       "      <td>button  initialization  microsoft  struct  flo...</td>\n",
       "      <td>按钮 控制 对话框 函数 边框 重载 颜色 消息</td>\n",
       "      <td>控制 按钮 函数 对话框 需要 改变 颜色 绘制</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9401</th>\n",
       "      <td>24点游戏探秘系列1：探秘概述</td>\n",
       "      <td>游戏  算法</td>\n",
       "      <td>答案 游戏 探秘 局面 数字 张牌 赢者 牌者</td>\n",
       "      <td>游戏 答案 没有 探秘 求解 取出 局面 是从</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9446</th>\n",
       "      <td>[安装]ISO文件解析</td>\n",
       "      <td>linux  windows  扩展  工作</td>\n",
       "      <td>文件 光盘 内核 支持 系统 使用 刻录 命令</td>\n",
       "      <td>光盘 文件 返回 数据 能够 内容 编译 内核</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9728</th>\n",
       "      <td>如何动态改变Frame的大小？</td>\n",
       "      <td>javascript  button  浏览器  function  input  html</td>\n",
       "      <td>对象 页面 代码 分帧 修改 结构 浏览器 红色</td>\n",
       "      <td>对象 结构 代码 页面 效果 分帧 红色 定义</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9904</th>\n",
       "      <td>VB.NET VS C#.</td>\n",
       "      <td>vb.net  c#  overloading  class  vb  assembly</td>\n",
       "      <td>程式 語言 函數 語法 設計 錯誤 判決 關鍵</td>\n",
       "      <td>程式 使用 設計 函數 錯誤 需要 語法 語言</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9975</th>\n",
       "      <td>图像分割的一些简单实现</td>\n",
       "      <td>图像处理  算法  div  pascal  integer  出版</td>\n",
       "      <td>阈值 灰度 分割 图像 大津 算子 选取 背景</td>\n",
       "      <td>阈值 分割 图像 灰度 背景 选取 大津 方法</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10084</th>\n",
       "      <td>利用ASP.NET服务器端自定义控件实现XML文件中还原表单</td>\n",
       "      <td>服务器  asp.net  xml  html  数据结构  编程</td>\n",
       "      <td>控件 表单 服务器端 数组 服务器 呈现 使用 方法</td>\n",
       "      <td>控件 表单 呈现 使用 数组 需要 方法 类型</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10107</th>\n",
       "      <td>.Net 是未来的趋势, 为什么?</td>\n",
       "      <td>.net  vc++  服务器  数据库  vb  asp.net</td>\n",
       "      <td>组件 开发者 程序员 逻辑 客户端 服务器端 数据库 需要</td>\n",
       "      <td>组件 技术 希望 逻辑 商业 需要 东西 注册</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10128</th>\n",
       "      <td>用程序删除已注册的COM+应用程序</td>\n",
       "      <td>delphi  library  file  integer  class  object</td>\n",
       "      <td>接口 应用程序 删除 集合 封装 新建 控件 保存</td>\n",
       "      <td>接口 应用程序 删除 集合 保存 名字 中点 描述</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10314</th>\n",
       "      <td>浅谈在PB中创建数据库的方法</td>\n",
       "      <td>数据库  database  sql server  脚本  string  integer</td>\n",
       "      <td>数据库 文件 对象 脚本 数据 建立 数据文件 创建</td>\n",
       "      <td>数据库 对象 文件 数据 建立 业务 创建 脚本</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10364</th>\n",
       "      <td>Hailstorm－冰雹是否来了？</td>\n",
       "      <td>微软  soap  互联网  .net  web服务  产品</td>\n",
       "      <td>计划 开发人员 互联网 技术 冰雹 业界 含义 能够</td>\n",
       "      <td>计划 技术 互联网 能够 产品 核心 使用 理解</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10440</th>\n",
       "      <td>Delphi插件（Plug-ins）创建、调试与使用应用程序扩展(一)</td>\n",
       "      <td>delphi  扩展  dll  string  图像处理  测试</td>\n",
       "      <td>插件 应用程序 文件 加载 过程 例程 外壳 使用</td>\n",
       "      <td>插件 应用程序 文件 过程 需要 使用 功能 程序</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10466</th>\n",
       "      <td>异形窗体的实现</td>\n",
       "      <td>constructor  integer  delphi  function  forms ...</td>\n",
       "      <td>窗体 图片 控件 背景色 颜色 背景 色差 允许</td>\n",
       "      <td>图片 窗体 背景色 颜色 背景 获得 设置 指定</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10614</th>\n",
       "      <td>砝码称重问题</td>\n",
       "      <td>c</td>\n",
       "      <td>砝码 称量 整数 充分性 定理 重量 序列 归法</td>\n",
       "      <td>砝码 整数 成立 重量 定理 称量 序列 充分性</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10688</th>\n",
       "      <td>JSP:调用servlet显示图片</td>\n",
       "      <td>servlet  jsp  import  byte  html  class</td>\n",
       "      <td>调用 客户端 输出 图片 二进制 文件 响应 方法</td>\n",
       "      <td>输出 客户端 图片 调用 方法 显示 打开 数据</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10708</th>\n",
       "      <td>WIN下动态注册码实现方法</td>\n",
       "      <td>winapi  system  null  structure  dll  paramete...</td>\n",
       "      <td>注册码 序列号 硬盘 软件 函数 获取 逻辑 实现</td>\n",
       "      <td>序列号 硬盘 注册码 方法 软件 实现 逻辑 获取</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10970</th>\n",
       "      <td>Asp.net性能优化总结(二)</td>\n",
       "      <td>性能优化  asp.net  datagrid  sql server  优化  服务器</td>\n",
       "      <td>控件 页面 优化 语句 服务器 选择 使用 执行</td>\n",
       "      <td>控件 使用 执行 优化 页面 语句 选择 数据</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10982</th>\n",
       "      <td>身份证15位升18位的算法</td>\n",
       "      <td>算法  delphi  integer  string  javascript  insert</td>\n",
       "      <td>校验码 号码 数字 身份证 地址码 编码 表示 顺序</td>\n",
       "      <td>校验码 表示 号码 身份证 数字 顺序 身份 公民</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11083</th>\n",
       "      <td>Pb中多用户权限管理实现方案</td>\n",
       "      <td>string  integer  教育  user  c</td>\n",
       "      <td>权限 菜单项 控件 控制 字段 二进制 按钮 操作员</td>\n",
       "      <td>权限 控制 进行 需要 系统 菜单项 用户 存放</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11472</th>\n",
       "      <td>关于WindowsInstaller服务出错解决方法收藏。</td>\n",
       "      <td>installer  windows  microsoft  杀毒软件  脚本  dll</td>\n",
       "      <td>运行 安装 删除 服务 文件 注册表 系统文件 卸载</td>\n",
       "      <td>运行 服务 安装 文件 系统文件 删除 方法 进入</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11476</th>\n",
       "      <td>WindowsServer2003常见问题（二）</td>\n",
       "      <td>windows  server  terminal  licensing  express ...</td>\n",
       "      <td>群組 電腦 網域 服務 授權 執行 設定 架構</td>\n",
       "      <td>群組 電腦 網域 服務 授權 使用 網路 執行</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11771</th>\n",
       "      <td>巧用CSS制作树状目录</td>\n",
       "      <td>css  div  javascript</td>\n",
       "      <td>子目录 主目录 隐藏 目录 树状 鼠标 制作 对象</td>\n",
       "      <td>目录 子目录 制作 隐藏 对象 树状 点击 效果</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11918</th>\n",
       "      <td>VB中删除、替换或者插入内容到文本中某一行,及文本行列的处理实例</td>\n",
       "      <td>vb  integer  string  kill  command</td>\n",
       "      <td>文件 奇数 文本 分隔 插入 数据 替换 循环</td>\n",
       "      <td>文件 数据 奇数 文本 分隔 操作 替换 网友</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12083</th>\n",
       "      <td>利用API函数实现图像淡入淡出效果</td>\n",
       "      <td>api  timer  byte  command  vb  编程</td>\n",
       "      <td>函数 控件 图像 透明 拷贝 定义 效果 添加</td>\n",
       "      <td>函数 图像 效果 透明 实现 定义 添加 程序</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12093</th>\n",
       "      <td>GRE计算机专项考试题（96）</td>\n",
       "      <td>buffer  多线程  translation  insert  pascal  refe...</td>\n",
       "      <td>缺页 调用者 寄存器 正则 程序 指针 排序 静态</td>\n",
       "      <td>时间 流水线 程序 不能 静态 保存 缺页 增加</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12111</th>\n",
       "      <td>LMDS拓宽“最后一公里”</td>\n",
       "      <td>网络  电话  internet  工作  电信  终端</td>\n",
       "      <td>接入 基站 用户 系统 业务 单元 扇区 光纤</td>\n",
       "      <td>接入 业务 用户 系统 提供 网络 无线 基站</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12242</th>\n",
       "      <td>用推送技术动态更新页面内容</td>\n",
       "      <td>applet  javascript  web服务  浏览器  服务器  html</td>\n",
       "      <td>服务器 页面 浏览器 内容 代码 连接 调用 广告</td>\n",
       "      <td>内容 页面 服务器 数据 广告 连接 方法 刷新</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12345</th>\n",
       "      <td>C#介绍</td>\n",
       "      <td>c#  语言  微软  java  c++  .net</td>\n",
       "      <td>语言 平台 对象 编译 编译程序 技术 接口 代码</td>\n",
       "      <td>语言 平台 技术 开发 对象 代码 接口 没有</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12487</th>\n",
       "      <td>将文件通过http的post方法上传到服务器</td>\n",
       "      <td>string  button  import  exception  input  web服务</td>\n",
       "      <td>上传 文件 __ 服务器 发送数据 页面 属性 网络</td>\n",
       "      <td>文件 上传 服务器 连接 网络 编码 程序 属性</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>100 rows × 4 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                                         标题  \\\n",
       "_id                                           \n",
       "321                  WhatisthenextBIGthing?   \n",
       "322                          关于我在中华读书报发表的文章   \n",
       "638                               LaTeX常用功能   \n",
       "823                            成功项目的杀手：领导意志   \n",
       "1690                        腾讯上市马化腾6年创业身家9亿   \n",
       "1796                    医院信息化发展调查研究报告（来自赛迪）   \n",
       "1823                             华为的冬天(任正非）   \n",
       "1826                          软件公司创业完全手册[一]   \n",
       "1834         J2ME (Java 2 Micro Edition) 简介   \n",
       "1883                            职业生涯规划的三个阶段   \n",
       "1996               GuruoftheWeek条款04:类的构造技巧   \n",
       "1999              GuruoftheWeek条款07：编译期的依赖性   \n",
       "2010                        详解<K's50PV>(上篇)   \n",
       "2014       kingofark的第0个五评计划-kingofark自述与简介   \n",
       "2165                        ASP.NET：革命，不是革新   \n",
       "2430                     姗姗来迟的乐趣——书评《模式的乐趣》   \n",
       "2600                          JavaTM安全体系结构2   \n",
       "2601                          JavaTM安全体系结构3   \n",
       "2603                          JavaTM安全体系结构5   \n",
       "2604                          JavaTM安全体系结构6   \n",
       "2605                          JavaTM安全体系结构7   \n",
       "2606                          JavaTM安全体系结构8   \n",
       "2872                                编程修养（一）   \n",
       "2885                            用GDB调试程序（七）   \n",
       "2886                       跟我一起写Makefile（一）   \n",
       "2891                       跟我一起写Makefile（六）   \n",
       "3000    Lotus Domino/Notes Toolkits综述(六) 其他   \n",
       "3072                               未来游戏发展趋向   \n",
       "3087                             用PHP实现文件上传   \n",
       "3288                         <<AI入门(3)>>(C)   \n",
       "...                                     ...   \n",
       "8578            程序员，你的逻辑思维有多强（一道推理题测试，不可错过）   \n",
       "9270                          用VC＋＋实现自绘按钮控制   \n",
       "9401                        24点游戏探秘系列1：探秘概述   \n",
       "9446                            [安装]ISO文件解析   \n",
       "9728                        如何动态改变Frame的大小？   \n",
       "9904                          VB.NET VS C#.   \n",
       "9975                            图像分割的一些简单实现   \n",
       "10084        利用ASP.NET服务器端自定义控件实现XML文件中还原表单   \n",
       "10107                     .Net 是未来的趋势, 为什么?   \n",
       "10128                     用程序删除已注册的COM+应用程序   \n",
       "10314                        浅谈在PB中创建数据库的方法   \n",
       "10364                     Hailstorm－冰雹是否来了？   \n",
       "10440   Delphi插件（Plug-ins）创建、调试与使用应用程序扩展(一)   \n",
       "10466                               异形窗体的实现   \n",
       "10614                                砝码称重问题   \n",
       "10688                     JSP:调用servlet显示图片   \n",
       "10708                         WIN下动态注册码实现方法   \n",
       "10970                      Asp.net性能优化总结(二)   \n",
       "10982                         身份证15位升18位的算法   \n",
       "11083                        Pb中多用户权限管理实现方案   \n",
       "11472         关于WindowsInstaller服务出错解决方法收藏。   \n",
       "11476              WindowsServer2003常见问题（二）   \n",
       "11771                           巧用CSS制作树状目录   \n",
       "11918      VB中删除、替换或者插入内容到文本中某一行,及文本行列的处理实例   \n",
       "12083                     利用API函数实现图像淡入淡出效果   \n",
       "12093                       GRE计算机专项考试题（96）   \n",
       "12111                         LMDS拓宽“最后一公里”   \n",
       "12242                         用推送技术动态更新页面内容   \n",
       "12345                                  C#介绍   \n",
       "12487                将文件通过http的post方法上传到服务器   \n",
       "\n",
       "                                                      标签  \\\n",
       "_id                                                        \n",
       "321        internet  产品  apple  blackberry  nokia  服务器     \n",
       "322                         读书  出版  教育  设计模式  语言  java     \n",
       "638                                             report     \n",
       "823                          工作  企业应用  算法  申诉  微软  浏览器     \n",
       "1690                           腾讯  创业  qq  互联网  网络  游戏     \n",
       "1796                    医疗  服务器  技术人  网络  产品  internet     \n",
       "1823                           华为  工作  生活  报表  数据库  制造     \n",
       "1826                                创业  工作  生活  融资  平台     \n",
       "1834                  java  j2me  嵌入式  平台  j2se  linux     \n",
       "1883                                工作  审查  体育  招聘  活动     \n",
       "1996   constructor  os  class  c++  reference  library     \n",
       "1999   function  class  iostream  string  struct  dep...   \n",
       "2010           c++  microsoft  游戏  语言  borland  pascal     \n",
       "2014                                汇编  c++  语言  工作  c     \n",
       "2165      asp.net  web服务  button  textbox  asp  脚本编程语言     \n",
       "2430                       设计模式  java  出版  uml  读书  工具     \n",
       "2600                  applet  java  jdk  程序开发  网络  sun     \n",
       "2601           url  applet  solaris  windows  java  扩展     \n",
       "2603           classloader  applet  java  jdk  虚拟机  语言     \n",
       "2604           工具  jdk  java  applet  solaris  windows     \n",
       "2605           algorithm  算法  object  java  存储  string     \n",
       "2606                    applet  jar  jdk  文档  java  加密     \n",
       "2872                             编程  语言  加密  工作  产品  c     \n",
       "2885            语言  pascal  fortran  unix  scheme  c++     \n",
       "2886        makefile  编译器  object  command  file  unix     \n",
       "2891             makefile  shell  yacc  unix  path  工作     \n",
       "3000                 lotus  数据库  xml  c++  文档  windows     \n",
       "3072                                            游戏  制造     \n",
       "3087         php  file  input  服务器  javascript  action     \n",
       "3288                             c  算法  search  扩展  工作     \n",
       "...                                                  ...   \n",
       "8578                                测试  random  算法  语言     \n",
       "9270   button  initialization  microsoft  struct  flo...   \n",
       "9401                                            游戏  算法     \n",
       "9446                            linux  windows  扩展  工作     \n",
       "9728    javascript  button  浏览器  function  input  html     \n",
       "9904      vb.net  c#  overloading  class  vb  assembly     \n",
       "9975                图像处理  算法  div  pascal  integer  出版     \n",
       "10084                服务器  asp.net  xml  html  数据结构  编程     \n",
       "10107                .net  vc++  服务器  数据库  vb  asp.net     \n",
       "10128    delphi  library  file  integer  class  object     \n",
       "10314   数据库  database  sql server  脚本  string  integer     \n",
       "10364                   微软  soap  互联网  .net  web服务  产品     \n",
       "10440                delphi  扩展  dll  string  图像处理  测试     \n",
       "10466  constructor  integer  delphi  function  forms ...   \n",
       "10614                                                c     \n",
       "10688          servlet  jsp  import  byte  html  class     \n",
       "10708  winapi  system  null  structure  dll  paramete...   \n",
       "10970     性能优化  asp.net  datagrid  sql server  优化  服务器     \n",
       "10982  算法  delphi  integer  string  javascript  insert     \n",
       "11083                     string  integer  教育  user  c     \n",
       "11472     installer  windows  microsoft  杀毒软件  脚本  dll     \n",
       "11476  windows  server  terminal  licensing  express ...   \n",
       "11771                             css  div  javascript     \n",
       "11918               vb  integer  string  kill  command     \n",
       "12083                api  timer  byte  command  vb  编程     \n",
       "12093  buffer  多线程  translation  insert  pascal  refe...   \n",
       "12111                     网络  电话  internet  工作  电信  终端     \n",
       "12242        applet  javascript  web服务  浏览器  服务器  html     \n",
       "12345                      c#  语言  微软  java  c++  .net     \n",
       "12487  string  button  import  exception  input  web服务     \n",
       "\n",
       "                               tfkey                        trkey  \n",
       "_id                                                                \n",
       "321          产品 应用 技术 市场 设备 推出 领域 厂商      市场 产品 领域 技术 应用 没有 设备 计算  \n",
       "322         教材 书籍 教学 技术 课堂 学生 教科书 习题      教材 技术 书籍 教学 学生 方法 知识 市场  \n",
       "638          设置 页眉 字号 缩进 页脚 版心 包来 行距      设置 显示 缩进 页脚 包来 纸张 习惯 字号  \n",
       "823          项目 软件 队伍 领导 油田 分数 系统 考核      项目 队伍 领导 软件 油田 系统 企业 公司  \n",
       "1690   移动梦网 马化腾 服务 用户 业务 互联网 增值 网络广告  业务 服务 马化腾 互联网 用户 注册 收入 移动梦网  \n",
       "1796     医院 信息系统 服务器 信息化 建设 医疗 系统 选型  医院 信息系统 系统 建设 信息化 医疗 服务器 管理  \n",
       "1823         干部 改进 流程 批判 管理 变革 公司 效益      干部 公司 管理 不能 流程 批判 改进 没有  \n",
       "1826         创业 软件 发展 过程 达到 人生 分配 园区      软件 创业 发展 过程 速度 产业 分配 希望  \n",
       "1834         程序 类别 函式 平台 执行 审核 装置 预先      程序 平台 类别 执行 函式 审核 装置 预先  \n",
       "1883         工作 职员 待遇 老板 了解 简历 能力 变动      工作 能力 可能 实际 没有 公司 变动 获得  \n",
       "1996        ++ 函数 应该 成员 风格 说明 操作 ++_      应该 函数 风格 成员 操作 内容 说明 翻译  \n",
       "1999        头文件 去掉 函数 包含 需要 代码 程序 定义     头文件 需要 代码 使用 程序 函数 成员 类型  \n",
       "2010                  编程 学习 详解 简称 观点                  编程 观点 学习 简称  \n",
       "2014     推荐 计划 初学者 团体 声明 简介 条款 计算机专业     推荐 团体 技术 条款 初学者 个人 喜爱 学院  \n",
       "2165    控件 页面 服务器端 生成 应用程序 文件 浏览器 创建  控件 页面 服务器端 生成 应用程序 文件 验证 创建  \n",
       "2430      模式 读者 设计模式 入门 教材 小书 影印版 复审    模式 读者 设计模式 教材 作品 入门 没有 标题  \n",
       "2600       保护 许可 线程 应用程序 调用 系统 访问 方法    保护 系统 许可 访问 应用程序 线程 调用 请求  \n",
       "2601         许可 文件 策略 代码 密钥 属性 入口 指定      许可 文件 策略 代码 指定 属性 密钥 入口  \n",
       "2603         授权 子类 器类 实例 使用 原始 空值 创建      授权 使用 创建 可能 原始 提供 用户 运行  \n",
       "2604       管理器 密钥 文件 工具 调用 命令行 用户 证书     工具 策略 使用 文件 管理器 证书 调用 用户  \n",
       "2605     签字 对象 线程 访问控制 方法 供应者 算法 消费者   对象 签字 线程 访问控制 消费者 方法 资源 获得  \n",
       "2606         签字 子域 许可 代码 密钥 图象 保护 音频      许可 签字 使用 子域 保护 代码 概念 资源  \n",
       "2872        程序员 程序 修养 编程 函数 语句 素质 作品     程序员 程序 修养 函数 语句 进行 编程 没有  \n",
       "2885       调试 命令 程序 函数 语言 功能 调试程序 使用      命令 调试 程序 语言 函数 环境 执行 功能  \n",
       "2886       文件 编译 链接 命令 目标 编译器 执行 源文件      文件 编译 命令 目标 需要 链接 执行 工程  \n",
       "2891         命令 变量 目录 参数 执行 规则 出错 定义      命令 执行 变量 目录 规则 出错 定义 使用  \n",
       "3000        数据库 综述 数据 文档 版本 存取 表单 应用     数据 使用 数据库 设计 元素 存取 应用 开发  \n",
       "3072    游戏 单人游戏 大展 运动 故事情节 站点 玩友 趣味性  游戏 单人游戏 运动 方面 发展 故事情节 制作 提高  \n",
       "3087       上传 文件 字段 表格 用户 文件名 服务器 提交     文件 上传 字段 用户 表格 服务器 使用 提交  \n",
       "3288         节点 表中 搜索 算法 估价 选择 新值 函数      节点 搜索 信息 表中 决定 选择 函数 有序  \n",
       "...                              ...                          ...  \n",
       "8578      小姐 衣服 方法 赵小姐 大家 答案 思考问题 橘子    小姐 衣服 大家 方法 希望 答案 能力 思考问题  \n",
       "9270        按钮 控制 对话框 函数 边框 重载 颜色 消息     控制 按钮 函数 对话框 需要 改变 颜色 绘制  \n",
       "9401         答案 游戏 探秘 局面 数字 张牌 赢者 牌者      游戏 答案 没有 探秘 求解 取出 局面 是从  \n",
       "9446         文件 光盘 内核 支持 系统 使用 刻录 命令      光盘 文件 返回 数据 能够 内容 编译 内核  \n",
       "9728        对象 页面 代码 分帧 修改 结构 浏览器 红色      对象 结构 代码 页面 效果 分帧 红色 定义  \n",
       "9904         程式 語言 函數 語法 設計 錯誤 判決 關鍵      程式 使用 設計 函數 錯誤 需要 語法 語言  \n",
       "9975         阈值 灰度 分割 图像 大津 算子 选取 背景      阈值 分割 图像 灰度 背景 选取 大津 方法  \n",
       "10084     控件 表单 服务器端 数组 服务器 呈现 使用 方法      控件 表单 呈现 使用 数组 需要 方法 类型  \n",
       "10107  组件 开发者 程序员 逻辑 客户端 服务器端 数据库 需要      组件 技术 希望 逻辑 商业 需要 东西 注册  \n",
       "10128      接口 应用程序 删除 集合 封装 新建 控件 保存    接口 应用程序 删除 集合 保存 名字 中点 描述  \n",
       "10314     数据库 文件 对象 脚本 数据 建立 数据文件 创建     数据库 对象 文件 数据 建立 业务 创建 脚本  \n",
       "10364     计划 开发人员 互联网 技术 冰雹 业界 含义 能够     计划 技术 互联网 能够 产品 核心 使用 理解  \n",
       "10440      插件 应用程序 文件 加载 过程 例程 外壳 使用    插件 应用程序 文件 过程 需要 使用 功能 程序  \n",
       "10466       窗体 图片 控件 背景色 颜色 背景 色差 允许     图片 窗体 背景色 颜色 背景 获得 设置 指定  \n",
       "10614       砝码 称量 整数 充分性 定理 重量 序列 归法     砝码 整数 成立 重量 定理 称量 序列 充分性  \n",
       "10688      调用 客户端 输出 图片 二进制 文件 响应 方法     输出 客户端 图片 调用 方法 显示 打开 数据  \n",
       "10708      注册码 序列号 硬盘 软件 函数 获取 逻辑 实现    序列号 硬盘 注册码 方法 软件 实现 逻辑 获取  \n",
       "10970       控件 页面 优化 语句 服务器 选择 使用 执行      控件 使用 执行 优化 页面 语句 选择 数据  \n",
       "10982     校验码 号码 数字 身份证 地址码 编码 表示 顺序    校验码 表示 号码 身份证 数字 顺序 身份 公民  \n",
       "11083     权限 菜单项 控件 控制 字段 二进制 按钮 操作员     权限 控制 进行 需要 系统 菜单项 用户 存放  \n",
       "11472     运行 安装 删除 服务 文件 注册表 系统文件 卸载    运行 服务 安装 文件 系统文件 删除 方法 进入  \n",
       "11476        群組 電腦 網域 服務 授權 執行 設定 架構      群組 電腦 網域 服務 授權 使用 網路 執行  \n",
       "11771      子目录 主目录 隐藏 目录 树状 鼠标 制作 对象     目录 子目录 制作 隐藏 对象 树状 点击 效果  \n",
       "11918        文件 奇数 文本 分隔 插入 数据 替换 循环      文件 数据 奇数 文本 分隔 操作 替换 网友  \n",
       "12083        函数 控件 图像 透明 拷贝 定义 效果 添加      函数 图像 效果 透明 实现 定义 添加 程序  \n",
       "12093      缺页 调用者 寄存器 正则 程序 指针 排序 静态     时间 流水线 程序 不能 静态 保存 缺页 增加  \n",
       "12111        接入 基站 用户 系统 业务 单元 扇区 光纤      接入 业务 用户 系统 提供 网络 无线 基站  \n",
       "12242      服务器 页面 浏览器 内容 代码 连接 调用 广告     内容 页面 服务器 数据 广告 连接 方法 刷新  \n",
       "12345      语言 平台 对象 编译 编译程序 技术 接口 代码      语言 平台 技术 开发 对象 代码 接口 没有  \n",
       "12487     上传 文件 __ 服务器 发送数据 页面 属性 网络     文件 上传 服务器 连接 网络 编码 程序 属性  \n",
       "\n",
       "[100 rows x 4 columns]"
      ]
     },
     "execution_count": 82,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "out.drop(out.columns[[2,3,4,5,6,9]], axis=1,inplace=True)\n",
    "out"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "metadata": {},
   "outputs": [],
   "source": [
    "# from gensim import corpora, models, similarities\n",
    "# # 建立TF-IDF模型\n",
    "# # 建立词袋模型\n",
    "# dictionary = corpora.Dictionary.load('csdn_blog_100.dict')\n",
    "# # 生成词向量\n",
    "# corpus = corpora.MmCorpus('csdn_blog_100.mm')\n",
    "# tfidf = models.TfidfModel.load(\"./csdn_blog_model_100.tfidf\")\n",
    "# tfidf_corpus = tfidf[corpus]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 55,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 构建LDA模型，设置主题数为10\n",
    "# lda = models.LdaModel(corpus, id2word=dictionary, num_topics=10)\n",
    "# # lsi.print_topics(4)\n",
    "# lda_corpus = lda[corpus]\n",
    "# # 生成lda模型,相似度矩阵\n",
    "# index_lda = similarities.MatrixSimilarity(lda_corpus)\n",
    "# # index_lda.save('csdn_blog_100_lda.index')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 83,
   "metadata": {},
   "outputs": [],
   "source": [
    "# from operator import itemgetter, attrgetter\n",
    "# f = 0.7\n",
    "# K = 8\n",
    "# for c in lda_corpus:\n",
    "#     doc_topics = sorted(c, key=itemgetter(1),reverse=True)\n",
    "#     fv=0\n",
    "#     doc_f_topics = []\n",
    "#     for t in doc_topics:\n",
    "#         fv+=t[1]\n",
    "#         doc_f_topics.append(t)\n",
    "#         if fv >f:\n",
    "#             break\n",
    "            \n",
    "#     for d in doc_f_topics:\n",
    "#         topwords = lda.get_topic_terms(d[0])\n",
    "#         print(d[0],topwords)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.6.1"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
